Giải trình tự toàn bộ gen là gì? Các nghiên cứu khoa học

Giải trình tự toàn bộ gen là kỹ thuật xác định toàn bộ trình tự DNA của một sinh vật, bao gồm cả vùng mã hóa và không mã hóa trong hệ gen. Phương pháp này cung cấp cái nhìn toàn diện về biến thể di truyền, hỗ trợ chẩn đoán bệnh, nghiên cứu y học cá thể hóa và phân tích hệ gen với độ chính xác cao.

Định nghĩa giải trình tự toàn bộ gen

Giải trình tự toàn bộ gen (Whole Genome Sequencing – WGS) là kỹ thuật dùng để xác định toàn bộ trình tự nucleotide của DNA trong bộ gen của một sinh vật, bao gồm cả vùng mã hóa và vùng không mã hóa. Phương pháp này cho phép phân tích mọi yếu tố di truyền có thể ảnh hưởng đến chức năng sinh học, bệnh lý và đặc điểm của cá thể, giúp xây dựng một bản đồ gen chính xác ở mức độ từng base pair.

Không giống như các phương pháp giải trình tự có mục tiêu cụ thể như giải trình tự exon hoặc các vùng liên quan đến bệnh, WGS bao phủ toàn bộ hệ gen, từ introns, exons, đến các vùng điều hòa như promoter, enhancer và cả vùng gen chưa rõ chức năng. Điều này tạo ra lượng dữ liệu khổng lồ nhưng có giá trị nghiên cứu và ứng dụng lâm sàng cao, đặc biệt trong y học cá thể hóa và nghiên cứu bệnh hiếm.

WGS được sử dụng trong nhiều lĩnh vực như chẩn đoán di truyền, phát hiện đột biến trong ung thư, nghiên cứu tiến hóa, dịch tễ học gen và phân tích vi sinh vật. Công nghệ này đã phát triển nhanh chóng nhờ sự giảm mạnh của chi phí giải trình tự và sự cải tiến trong năng lực xử lý dữ liệu.

Nguyên lý và quy trình kỹ thuật

Giải trình tự toàn bộ gen được thực hiện thông qua một chuỗi các bước chuẩn hóa, từ chuẩn bị mẫu đến phân tích dữ liệu. Quá trình này có thể được thực hiện bằng các nền tảng công nghệ khác nhau, phổ biến nhất là Illumina (short-read), PacBio và Oxford Nanopore (long-read), tùy thuộc vào mục tiêu nghiên cứu.

Quy trình kỹ thuật cơ bản gồm các bước sau:

  1. Chiết tách DNA chất lượng cao từ mẫu sinh học (máu, mô, nước bọt...)
  2. Cắt nhỏ DNA thành các đoạn ngắn hoặc dài (tùy nền tảng sử dụng)
  3. Gắn đoạn chỉ thị (adapter) vào hai đầu mỗi đoạn DNA
  4. Thực hiện phản ứng khuếch đại nếu cần
  5. Trình tự hóa DNA bằng máy giải trình tự
  6. Lắp ráp trình tự, loại bỏ nhiễu, phân tích dữ liệu tin sinh học

Bảng dưới đây so sánh ba nền tảng phổ biến trong giải trình tự toàn bộ gen:

Nền tảng Độ dài đọc Ưu điểm Nhược điểm
Illumina ~150 bp Độ chính xác cao, chi phí thấp Khó phân tích vùng lặp và tái sắp xếp lớn
PacBio >10.000 bp Giải trình tự dài, hỗ trợ phát hiện đột biến cấu trúc Chi phí cao, lỗi đọc thô cần hiệu chỉnh
Oxford Nanopore ~1.000 đến >100.000 bp Thiết bị nhỏ gọn, thời gian phản hồi nhanh Độ chính xác chưa ổn định, cần cải tiến thuật toán

Sau khi giải mã trình tự DNA, dữ liệu được xử lý thông qua các pipeline tin sinh học để so sánh với hệ gen tham chiếu, phát hiện các biến thể di truyền như SNPs, INDELs, SVs và CNVs.

Phân biệt với các kỹ thuật giải trình tự khác

WGS là phương pháp toàn diện nhất trong các kỹ thuật giải trình tự gen, vượt trội về độ phủ và khả năng phát hiện biến thể. Tuy nhiên, chi phí cao và yêu cầu xử lý dữ liệu lớn khiến WGS thường được cân nhắc cùng với các phương pháp khác tùy theo mục tiêu cụ thể.

Các phương pháp so sánh với WGS:

  • Giải trình tự exome (Whole Exome Sequencing – WES): Giải mã khoảng 1–2% hệ gen, tập trung vào các vùng mã hóa protein. Thích hợp cho nghiên cứu bệnh di truyền và có chi phí thấp hơn WGS.
  • Giải trình tự vùng đích (Targeted Sequencing): Phân tích một số gen hoặc vùng cụ thể có liên quan đến bệnh hoặc chức năng sinh học đã biết.

Bảng so sánh các kỹ thuật:

Phương pháp Vùng phân tích Khả năng phát hiện đột biến Chi phí
WGS Toàn bộ hệ gen SNPs, INDELs, SVs, CNVs, vùng điều hòa Cao
WES Chỉ exon (1–2%) Đột biến gen mã hóa Trung bình
Targeted Vài chục – vài trăm gen Đột biến đã biết Thấp

Việc lựa chọn giữa WGS, WES hay giải trình tự vùng đích phụ thuộc vào độ rộng phân tích cần thiết, độ nhạy mong muốn và khả năng chi trả trong bối cảnh nghiên cứu hay lâm sàng.

Ứng dụng trong y học cá thể hóa

Giải trình tự toàn bộ gen là công cụ nền tảng của y học chính xác, cho phép thiết lập bản đồ di truyền của từng cá nhân, từ đó đưa ra các quyết định y tế mang tính cá nhân hóa về phòng bệnh, chẩn đoán và điều trị.

Các ứng dụng thực tế trong lâm sàng gồm:

  • Xác định đột biến gây bệnh di truyền (như Huntington, bệnh Wilson, rối loạn chuyển hóa bẩm sinh...)
  • Chọn thuốc phù hợp với kiểu gen chuyển hóa (dược di truyền học – pharmacogenomics)
  • Dự đoán nguy cơ mắc bệnh phức tạp như tim mạch, tiểu đường, Alzheimer dựa trên đa biến thể di truyền

Ví dụ, người mang biến thể trong gen CYP2C19 có thể không đáp ứng với clopidogrel – một thuốc chống kết tập tiểu cầu phổ biến. Việc biết thông tin này trước khi điều trị sẽ giúp bác sĩ chọn lựa thuốc thay thế phù hợp hơn.

WGS cũng đang được ứng dụng trong tầm soát trước sinh (non-invasive prenatal testing – NIPT nâng cao) và kiểm tra trước khi mang thai (carrier screening) để phát hiện các gen bệnh có thể di truyền cho con cái.

Ứng dụng trong nghiên cứu và phát hiện bệnh hiếm

Giải trình tự toàn bộ gen đang trở thành công cụ then chốt trong việc chẩn đoán các bệnh hiếm có nguồn gốc di truyền. Nhiều bệnh nhân trải qua "cuộc hành trình chẩn đoán" kéo dài nhiều năm, với nhiều xét nghiệm không xác định được nguyên nhân. WGS giúp giải quyết những ca lâm sàng khó, khi các phương pháp truyền thống như giải trình tự exome hoặc xét nghiệm mục tiêu không phát hiện được bất thường.

WGS có thể phát hiện được:

  • Đột biến ở vùng điều hòa gen hoặc vùng intron sâu
  • Biến thể cấu trúc lớn như mất đoạn, đảo đoạn, nhân đoạn, chuyển đoạn
  • Đột biến lặp lại (repeat expansion), khó phát hiện bằng kỹ thuật thông thường

Trong một nghiên cứu của New England Journal of Medicine, WGS đã giúp tăng tỷ lệ chẩn đoán bệnh hiếm từ 25% lên 41% so với WES, đặc biệt trong các bệnh thần kinh, rối loạn phát triển và bệnh lý chuyển hóa.

Vai trò trong nghiên cứu ung thư

WGS đang được ứng dụng mạnh mẽ trong ung thư học, giúp phân tích toàn bộ bộ gen của tế bào ung thư và so sánh với mô lành. Phân tích này cung cấp cái nhìn toàn diện về các biến thể somatic và germline, từ đó xác định được cơ chế sinh ung và các đột biến có thể tác động đến lựa chọn điều trị.

Các ứng dụng chính trong ung thư học bao gồm:

  • Phát hiện đột biến đặc hiệu (như BRAF, EGFR, KRAS)
  • Phân tích toàn bộ tín hiệu đột biến để xây dựng “mẫu hình đột biến” (mutational signature)
  • Đánh giá mức độ mất ổn định vi vệ tinh (MSI), gánh nặng đột biến (TMB) – yếu tố dự đoán đáp ứng miễn dịch

Theo National Cancer Institute, WGS có khả năng xác định các điểm đích điều trị tiềm năng trong ung thư kháng trị và hỗ trợ phân loại phân nhóm chính xác trong bệnh lý huyết học ác tính như leukemia và lymphoma.

Ưu điểm và hạn chế

WGS là công cụ toàn diện nhất hiện nay trong lĩnh vực di truyền học và y học cá thể hóa. Tuy nhiên, kỹ thuật này cũng có những giới hạn nhất định.

Ưu điểm:

  • Giải trình tự toàn bộ hệ gen, không bỏ sót bất kỳ vùng nào
  • Phát hiện được cả đột biến nhỏ và bất thường cấu trúc lớn
  • Phù hợp với các bệnh đa yếu tố và chưa rõ gen bệnh

Hạn chế:

  • Chi phí cao hơn các phương pháp khác (dù đang giảm mạnh)
  • Dữ liệu lớn, cần hệ thống phân tích và lưu trữ chuyên biệt
  • Khó giải thích các biến thể không rõ ý nghĩa (VUS – Variants of Uncertain Significance)
  • Vấn đề đạo đức và bảo mật thông tin di truyền

Các tổ chức như GA4GH đang xây dựng khung pháp lý và kỹ thuật để quản lý, chia sẻ và bảo vệ dữ liệu hệ gen trong nghiên cứu và y tế.

Các tiêu chí đánh giá chất lượng WGS

Để WGS đạt được giá trị phân tích và lâm sàng, cần đảm bảo nhiều chỉ số kỹ thuật liên quan đến dữ liệu. Ba tiêu chí quan trọng nhất là độ phủ, độ dài đọc và độ chính xác.

  • Độ phủ (Coverage): Được hiểu là số lần mỗi base được đọc lại trong quá trình giải trình tự. Với WGS lâm sàng, yêu cầu ≥ 30x là chuẩn để phát hiện đột biến với độ tin cậy cao.
  • Độ dài đọc (Read length): Illumina sử dụng đọc ngắn (~150 bp), trong khi PacBio hoặc Nanopore có thể đọc đến vài chục nghìn bp.
  • Độ chính xác đọc (Base calling accuracy): Cần đạt ≥ 99.9% để đảm bảo độ tin cậy trong phân tích.

Công thức tính độ phủ trung bình:

Coverage=N×LGCoverage = \frac{N \times L}{G}

Trong đó: NN là số đoạn đọc, LL là độ dài đọc, GG là kích thước hệ gen người (~3.2 × 10^9 bp). Ví dụ: 600 triệu đoạn đọc dài 150 bp sẽ tạo ra độ phủ trung bình ~28x.

Xu hướng và tương lai của giải trình tự toàn bộ gen

Chi phí WGS đã giảm từ hơn 100 triệu USD (2003) xuống dưới 1.000 USD cho mỗi người, nhờ vào sự tiến bộ công nghệ và tối ưu hóa quy trình. Xu hướng tương lai đang hướng đến ứng dụng đại trà WGS trong chẩn đoán, tầm soát và dự phòng.

Các ứng dụng dự kiến trong tương lai gần:

  • Giải trình tự hệ gen sơ sinh để tầm soát bệnh bẩm sinh (newborn genomic screening)
  • WGS định kỳ trong y tế dự phòng cá nhân hóa
  • Phân tích hệ gen cộng đồng phục vụ dịch tễ học và điều chỉnh chính sách y tế

WGS còn được kỳ vọng tích hợp với các dữ liệu “multi-omics” như transcriptomics, proteomics, metabolomics để hiểu sâu hơn về cơ chế bệnh sinh và đáp ứng sinh học. Trí tuệ nhân tạo (AI) và học máy (machine learning) đang ngày càng được tích hợp để tự động phân tích và diễn giải dữ liệu WGS một cách nhanh và chính xác.

Tài liệu tham khảo

  1. National Human Genome Research Institute. (2023). Genomics and Medicine. Truy cập từ: genome.gov
  2. National Cancer Institute. (2023). Genomics in Cancer. Truy cập từ: cancer.gov
  3. Nature Medicine. (2020). Whole-genome sequencing in rare disease diagnosis. Truy cập từ: nature.com
  4. Illumina Inc. (2023). Whole Genome Sequencing Overview. Truy cập từ: illumina.com
  5. Oxford Nanopore Technologies. (2023). Nanopore-based Sequencing. Truy cập từ: nanoporetech.com
  6. GenomeWeb. (2024). Sequencing and Genomics News. Truy cập từ: genomeweb.com
  7. Global Alliance for Genomics and Health (GA4GH). (2023). Framework for Responsible Sharing of Genomic Data. Truy cập từ: ga4gh.org

Các bài báo, nghiên cứu, công bố khoa học về chủ đề giải trình tự toàn bộ gen:

ỨNG DỤNG PHƯƠNG PHÁP GIẢI TRÌNH TỰ TOÀN BỘ VÙNG GEN MÃ HÓA TRONG VIỆC XÁC ĐỊNH SƠ BỘ BIẾN THỂ DI TRUYỀN Ở BỆNH NHÂN MẮC DỊ TẬT VAN TIM BẨM SINH
Tạp chí khoa học Trường Đại học Mở Hà Nội - - Trang - 2022
Dị tật van tim bẩm sinh đặc trưng bởi một hoặc nhiều van tim phát triển bất thường. Có một số nguyên nhân phổ biến gây ra bệnh như nhiễm độc và nhiễm bệnh trong thời gian thai kỳ đặc biệt là do di truyền. Giải trình tự toàn bộ vùng gen mã hóa cho phép xác định biến thể di truyền trên đồng thời nhiều gen đươc coi là phương pháp thích hợp trong nghiên cứu di truyền dị tật van tim bẩm sinh. Nghiên cứ...... hiện toàn bộ
#Dị tật van tim bẩm sinh #đột biến gen #giải trình tự toàn bộ vùng mã hóa #giải trình tự thế hệ mới #tin sinh học
Ứng dụng công cụ tin sinh AMROMICS vào phân tích tự động dữ liệu giải trình tự toàn bộ hệ gen vi khuẩn
TẠP CHÍ Y DƯỢC LÂM SÀNG 108 - - 2022
Mục tiêu: Nghiên cứu kết quả bước đầu ứng dụng công cụ tin sinh AMROMICS trong phân tích tự động hệ gen của vi khuẩn kháng kháng sinh. Đối tượng và phương pháp: Phân tích toàn bộ hệ gen của 14 chủng vi khuẩn E. coli và chủng E. coli K-12 MG1655 được công bố trên cơ sở dữ liệu NCBI bằng công cụ tin sinh AMROMICS. Kết quả: Công cụ tự động phân tích toàn bộ hệ gen của 15 mẫu vi khuẩn trong thời gian ...... hiện toàn bộ
#AMROMICS #phân tích giải trình tự #toàn bộ hệ gen #vi khuẩn #kháng kháng sinh
Giải trình tự toàn bộ bộ gen của hươu xạ Siberia (Moschus moschiferus) cung cấp cái nhìn sâu sắc về các đặc điểm di truyền của nó Dịch bởi AI
Springer Science and Business Media LLC - Tập 21 - Trang 1-13 - 2020
Hươu xạ Siberia, một trong bảy loài, được phân bố tại các khu rừng thông ở châu Á. Trên toàn cầu, quy mô quần thể của hươu xạ Siberia đang bị đe dọa bởi nạn săn bắn bất hợp pháp nghiêm trọng vì hươu xạ có giá trị thương mại cao và thịt, mất môi trường sống và hỏa hoạn rừng. Hiện tại, loài này được phân loại là 'Có nguy cơ' trong Danh sách Đỏ của IUCN. Tuy nhiên, thông tin di truyền về hươu xạ Sibe...... hiện toàn bộ
#hươu xạ Siberia #bộ gen #di truyền #thích nghi #nghiên cứu kinh tế
1. Xác định biến thể gen liên quan đến kiểu hình ở trẻ em mắc bệnh tim bẩm sinh một tâm thất chức năng
Tạp chí Nghiên cứu Y học - Tập 189 Số 4 - Trang 1-20 - 2025
Bệnh tim bẩm sinh một tâm thất chức năng (FSV) là một bệnh tim bẩm sinh (CHD) phức tạp bao gồm nhiều khiếm khuyết có mức độ di truyền tương đối cao và nguy cơ tái phát ở anh chị em ruột. Nguyên nhân đa yếu tố của FSV đặt ra thách thức trong việc xác định rõ ràng các yếu tố gây bệnh cụ thể và lập kế...... hiện toàn bộ
#Bệnh tim bẩm sinh (CHD) #Bệnh tim một tâm thất chức năng (FSV) #Biến thể gen #Giải trình tự toàn bộ vùng gen mã hóa (WES) #người bệnh Việt Nam
PaCBAM: xử lý nhanh và có thể mở rộng dữ liệu giải trình tự toàn bộ exon và giải trình tự mục tiêu Dịch bởi AI
Springer Science and Business Media LLC - Tập 20 - Trang 1-5 - 2019
Việc thẩm tra dữ liệu giải trình tự toàn bộ exon và giải trình tự mục tiêu (NGS) đang ngày càng trở thành phương pháp ưa chuộng cho việc khám phá các nhóm đông người trong bối cảnh nghiên cứu, và quan trọng hơn là trong ngữ cảnh y học chính xác. Việc truy xuất và xử lý dữ liệu mức độ gen và dữ liệu vị trí nucleotide đơn lẻ vẫn là những trở ngại chính trong phân tích dữ liệu NGS. Do đó, cần thiết p...... hiện toàn bộ
#Giải trình tự toàn bộ exon #giải trình tự mục tiêu #NGS #xử lý dữ liệu gen #PaCBAM #phân tích dữ liệu #y học chính xác
Các đột biến mới trong động cơ lông roi được xác định bởi giải trình tự toàn bộ gen trong Chlamydomonas Dịch bởi AI
Cilia - Tập 2 - Trang 1-14 - 2013
Việc xây dựng lông roi hoặc roi cần các động cơ phân tử và các protein liên quan cho phép di chuyển protein từ cơ thể tế bào đến đầu xa và trở lại cơ thể tế bào trong quá trình được gọi là vận chuyển nội bào chất (intraflagellar transport - IFT). Các đoàn tàu IFT được thực hiện bởi kinesin và quay trở lại cơ thể tế bào bởi dynein. Chúng tôi đã sử dụng giải trình tự toàn bộ gen để xác định các đột ...... hiện toàn bộ
Giải trình tự toàn bộ transcriptome và cấu trúc gen sinh khoáng liên quan đến tính chất chất lượng ngọc trai nuôi trồng ở hàu ngọc trai, Pinctada margaritifera Dịch bởi AI
Springer Science and Business Media LLC - Tập 20 - Trang 1-11 - 2019
Ngọc trai nuôi trồng là những viên gem độc đáo được sản xuất bởi các sinh vật sống, chủ yếu là nhuyễn thể thuộc giống Pinctada, thông qua các đặc tính sinh khoáng của mô túi ngọc trai. Cải thiện chất lượng ngọc trai P. margaritifera là một trong những thách thức lớn nhất mà nghiên cứu Polynesia phải đối mặt cho đến nay. Để đạt được mục tiêu này, việc hiểu rõ hơn về các cơ chế phức tạp liên quan đế...... hiện toàn bộ
#ngọc trai nuôi trồng #Pinctada margaritifera #sinh khoáng #RNA-seq #transcriptome
Xác định các gen tiềm năng trong lúa đối với bệnh chết chóc bằng cách giải trình tự toàn bộ bộ gen Dịch bởi AI
Theoretical and Applied Genetics - Tập 124 - Trang 63-74 - 2011
Những tiến bộ gần đây trong việc giải trình tự toàn bộ bộ gen đã cho phép xác định các gen có liên quan đến độ nhạy cảm với bệnh ở người. Mục tiêu của nghiên cứu của chúng tôi là khai thác các bộ gen toàn bộ của 13 dòng lúa thuần chủng (Oryza sativa L.) để xác định các SNP không đồng nghĩa (nsSNPs) và các gen tiềm năng cho khả năng kháng bệnh bạc lá, một bệnh có ý nghĩa toàn cầu. Giải trình tự toà...... hiện toàn bộ
#gen tiềm năng #lúa #bệnh bạc lá #SNP không đồng nghĩa #giải trình tự bộ gen
Xác thực các biến thể nucleotid đơn bằng phân tích exon bổ sung với bộ sequencer bán dẫn để bổ sung dữ liệu về giải trình tự gen toàn bộ của một quần thể người Dịch bởi AI
Springer Science and Business Media LLC - Tập 15 - Trang 1-14 - 2014
Việc xác thực các biến thể nucleotid đơn trong giải trình tự toàn bộ gen là rất quan trọng để nghiên cứu các biến thể liên quan đến bệnh trong các quần thể lớn. Sự kết hợp giữa các loại máy giải trình tự thế hệ tiếp theo khác nhau để phân tích bộ gen cá nhân có thể là một phương pháp hiệu quả để xác thực nhiều biến thể nucleotid đơn một cách đồng thời. Ở đây, chúng tôi đã phân tích 12 bộ gen Nhật ...... hiện toàn bộ
#giải trình tự toàn bộ gen #biến thể nucleotid đơn #giải trình tự exon #máy giải trình tự bán dẫn #di truyền học quần thể
Tổng số: 36   
  • 1
  • 2
  • 3
  • 4